,,.^k-. Puedes no imprimir este archivo y consultaries en formato digital, ahorraras papel y tinta. Si decides imprimirlo, 

por favor hazlo en papel reciclado, a doble cara y con poca tinta. So ecologico. Muchas gracias. ^~9 
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Puede encontrarse algo de teoria en [1] y [2]. 
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Probabilidad de sucesos 

Ejercicio lps 

Supon que diriges un banco donde las cantidades de depositos y reintegros diarios estdn dados por variables 
aleatorias independientes con distribucion normal. Para los depositos, la media es $12,000 y la desviacion 
estdndar es $4.000; para los reintegros, la media es $10.000 y la desviacion estdndar es $5,000. 

(a) Para una semana, calcular o acotar la probabilidad de que los cinco reintegros sumen mas de 
$55,000 

(b) Para un dia particular, calcular o acotar la probabilidad de que los reintegros excedan a los depositos 
en mas de $5. 000 

Imagina que vais a lanzar un nuevo producto mensual. El estudio prospectivo indica que los beneficios (en 
millones de dolares) se comportan como la cantidad aleatoria Q = (X+l)/2,325, donde X sigue una 
distribucion t de Student con veinte grados de libertad. 

(c) Para un mes particular, calcular o acotar la probabilidad de que los beneficios sean menores a uno 
(un millon de dolares). 

(La mitad del enunciado de este ejercicio ha sido tomada del libro Business Statistics, Douglas Downing y Jeffrey Clark, Barron's.) 

Identificacion de variables y distribuciones : Del enunciado sabemos que 

D ~ TV (li d = 12.000, a 2 fl =4.000 2 ) y W ~ N{\l w = 10.000, cv=5.000 2 ) 

donde D y W representan las variables aleatorias depositos diarios and reintegros diarios, respectivamente. 
(Para evitar posibles malentendidos futuros, desde el principio escribimos las varianzas -no las desviaciones 
estandar- en las expresiones de las distribuciones.) 

(a) Como las variables son diarias, para una semana tenemos cinco medidas de ellas (una por cada dia 
laborable). 

Traduccion al lenguaje matematico : Se nos pregunta por la probabilidad 

P(W X + W 2 + W 3 + W 4 + W 5 > 55.000) = P(X' =1 W t > 55.000) 

Busqueda de una distribucion conocida : Para calcular o acotar esta probabilidad, necesitamos conocer la 
distribucion de la suma o, alternativamente, relacionarla con una cantidad cuya distribucion conozcamos. 
Utilizando las reglas que gobiernan las sumas y restas de variables normales, 

i;' =1 ^~tf(5|V,5c£). 
Reescritura del suceso: Podemos reescribir facilmente el suceso en terminos de la version estandarizada de 



esta distribucion normal: 

Zu i=l W-5ii w 55.000 -5 li, 



P {^.^W> 55.000)= P 



i5o w V5ai 



= P 



1 z> 55.000-50.000 ^ 
a/5-5.000 2 



=P(Z> 0,4472 



Consulta de la tabla : Finalmente, es suficiente consultar la tabla de la distribucion normal estandar de Z. Por 
un lado, en la tabla nos proporcionan valores para los cuantiles 0,44 y 0,45, por lo que podriamos redondear el 
valor 0,4472 al mas cercado, 0,45, o, mas exactamente, vamos a acotar la probabilidad. Por otro lado, la tabla 
incluye las probabilidades de las colas inferiores, por lo que consideraremos el complementario de algunos 
sucesos. A partir de un dibujo de la funcion de densidad y los valores, es facil deducir que 

P{Z> 0,44)> P{Z> 0,4472)> P{Z> 0,45) 

1 -P (Z< 0,44 )>P(Z> 0,4472 )> 1-P(Z<0,45) 
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l-0,6700> P[Z> 0,4472)> 1-0,6736 
0.3300> P(Z> 0.4472)> 0.3264 



Entonces, 



0,3264< P\ Xl, W i > 55.000 < 0,3300 



Nota: Es tambien posible relacionar la suma con la media muestral, y utilizar su distribution 

p (E- = i W ' > 55 - 000 ) =i5 (lZ-=i w t > \55.000)=P{W> 11.000) 



lv 5 



O b 



W=\L tm ,W t ~N{\h,.^f) 



o 2 w 



N 0,1 



(b) Traduccion al lenguaje matematico : Se nos pide la probabilidad P(W> D+ 5.000) 

Busqueda de una distribucion conocida : Para calcular o acotar la probabilidad, reescribimos el suceso para 
que todas las cantidades aleatorias esten en el miembro izquierdo de la desigualdad: 

P{W> D+ 5.000)=P{W-D> 5.000) 

Ahora necesitamos conocer la distribucion de W—Do, alternativamente, alguna cantidad que involucra a esta 
diferencia y cuya distribucion es conocida. Utilizando de nuevo las reglas que gobiernan las sumas y restas de 
variables normales: 

W-D ~ A^(^i^-^ fl ,a 2 ^+a 2 Z3 )=#(-2.000,5.000 2 +4.000 2 ). 

Reescritura del suceso : Podemos expresar facilmente el suceso en terminos de la version estandarizada de esta 
distribucion normal: 



P(W-D> 5.000 ) = P 



W-D)-- 2.000 5.000- -2.000 



V2510 6 + 16-10 6 V2510 6 + 16-10 6 



■ P Z> 



7-10 3 



V 25+16-10' 



P Z> 1,0932 



Consulta de la tabla : Finalmente, 

P{Z> 1,0900)> P{Z> 1,0932)> P{Z> 1,1000) 

1-P(Z<1,0900)> P{Z> 1,0932)> 1-P(Z<1,1000; 

1-0,8621>P(Z> 1,0932)> 1-0,8643 

0,1379> P{Z> 1,0932)> 0,1357 

Entonces, 



0,1357< Pi W> D+ 5.000 < 0,1379 



(c) Traduccion al lenguaje matematico : Nos preguntan por P 



#^J_-10 6 < 1-10 6 

2,325 



X+l 

2,325 



<1 



Busqueda de una distribucion conocida : No conocemos la distribucion de (X+l)/2,325, pero sabemos que 

X ~ t 20 
Reescritura del suceso : Podemos reescribir facilmente el suceso en terminos de esa distribucion conocida: 
J X+ 1 



2,325 



-<1 



= P (X+ 1< 2,325 )=P (X< 2,325 -\) = P(X< 1,325 



Consulta de la tabla : Finalmente, es suficiente consultar la tabla de la distribucion t de Student. La cantidad 
1,325 esta en la tabla, y nuestra tabla proporciona las probabilidades de las colas inferiores, por lo que 
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2,325 



: 0,900 



/ 



Ejercicio 2ps 

Cuando un proceso de production estd funcionando correctamente, la resistencia (en ohmnios) de los 
componentes que produce sigue una distribution normal con desviacion tipica 4,68. Se toma una muestra 
aleatoria simple de cuatro componentes. iCual es la probabilidad de que la cuasivarianza muestral sea 
mayor que 30? 



Variable 



R = Resistencia (de un componente) 



R ~ N(n, o = 4,68) 



Muestra v estadistico 



Ri, Ri, Ri, R* (Se mide la resistencia en cuatro componentes distintos.) 



1 ^n 



R;-R) 



Cuasivarianza muestral 



Suceso y probabilidad 

La probabilidad por la que nos preguntan es 



P[S l > 30 



Para calcular la probabilidad de un suceso, tenemos que conocer la distribucion de la variable aleatoria 
involucrada. En este caso no conocemos la distribucion de S 2 , aunque sabemos que como R sigue una 
distribucion normal: 



n-lS' 



a 



2 
'Xn-1 



Entonces, dado que n = 4 y completando la desigualdad con las constantes necesarias: 

,2 



P[S> 30 )=P 



' n-l)s\ {n-l)30 \_J x> (4-1)30^ 



\ 



a 



a 



4,68' 



= P X>4,11 



/ 



donde X ~ X3- Por tanto, vemos que la idea importante del ejercicio es escribir el suceso que nos piden y 
operar para conseguir una cantidad en la que aparezca la cuasivarianza y cuya distribution sea conocida. 

Tabla de la distribucion ji-cuadrado 

Como n— 1=4-1=6) es suficiente mirar la tercera fila. 



DF 


p <= .005 


.01 


.025 


.05 


.25 


.5 


(P) 


.9 


.95 


.975 


.99 


1 


.000 


.000 


.001 


.004 


.10 


.45 


1.32 


2.71 


3.84 


5.02 


6.64 


2 
© 


.010 


.020 


.051 


.10 


.58 


1.39 


2JZ 


4.61 


5.99 


7,38 


9.21 


.072 


.11 


.22 


.35 


1.21 


2.37 


Ujj) 


6.25 


7 81 


9.35 


11.3 


4 


.21 


.30 


.48 


.71 


1.92 


3.36 


5^9 


7.78 


9.49 


1 1.1 


13 3 



Las probabilidades de la tabla corresponden a sucesos de la forma P(X<x p ), (o P{X<x p ), dado que la 
distribucion es continua), asi que hay que considerar el complementario: 

P{X><4JAj-l-P{X<4,ll)=l-(QJ5>=0,25 
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Ejercicio 3ps 

Calcular las siguientes probabilidades: 

(a) P(X = 5), donde X sigue una distribution binomial con pardmetros 10 y 0,2. Busca el valor en la tabla 
y comprueba que es correcto utilizando lafuncion de masa de la distribution. 

(b) P(X > 2), donde X sigue una distribution de Poisson con pardmetro X = 2,7. lEs mdsfdcil consider ar 
el suceso complementario? 

(a) Si la tabla que estas utilizando da probabilidades individuales P(X = x), basta buscar la probabilidad que 
corresponde a los valores de los parametros k = 10 y p = 0,2: P(X = 5) = 0,0264. Si la tabla da 
probabilidades acumuladas P(X<x), debe reescribirse el suceso como {X = 5} = {X<5} — [X<4} , por lo 
que 

P(X = 5) = P{X<5)-P{X<4)= 0,0328-0,0064 = 0,0264. 

Si no tuviesemos ninguna tabla, podriamos aplicar la definicion de la funcion de masa: 



p(X = 5) = f(5] 



10 

5/ 



0.2 5 (l-0.2) 10 ~ 5 = 252-0,16 5 =0,0264. 



(b) Si la tabla proporciona las probabilidades acumuladas de las colas inferiores P(X < x), debe considerarse 
el complementario del suceso: { X >2 } = { X < 2 } c , de donde 

P{X>2)=1-P{X<2)= 1-0,4936 = 0,5064. 



Estimation puntual 

Propiedades de estadisticos y estimadores 

Ejercicio lep-p 

Para estudiar una poblacion, consideramos un estadistico T que utiliza la information contenida en la 
muestra aleatoria simple X = (Xj, X2,...,X„), donde el modelo poblacional X sigue una distribution ji- 
cuadrado con tres grados de libertad. Si 

T{X) = T{X l ,X 2 ...,X n ) = 2X-l, 

calcular su esperanza y su varianza. Como estimador del doble de la media de la ley poblacional, les T un 
estimador consistente en media cuadrdtica? Calcular el error cuadrdtico medio de T. 

Pista : SiX sigue una distribution ji-cuadrado con m grados de libertad, E(X) = my Var(X) = 2m. 

Para calcular el valor de estas dos propiedades de la distribucion en el muestreo del estadistico T, tenemos que 
aplicar las propiedades de la esperanza y de la varianza de las distribuciones de probabilidad. El conocimiento 
sobre la distribucion de Xse utiliza en los ultimos pasos. 



Esperanza : 



E T X ) =E 2 



-X. 



, x i 



= E 



-Z ,Xi ~ E i h-E Z- , x i h 1 



= -Y" E(X i )-l=-nE(x)-l=2-3-l=5 
n '~ x n 
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Varianza: 



Var T (X = Var 



\ 



1 x~~ ' n 



-1 



— Var 






\ l 2 \2 



I 



I \ n l 






4 , \ 4 24 

« n n 



Independencia de X. (muestra aleatoria simple) 



Consistencia : 

Aunque la varianza de Jtiende a cero cuando n crece, la esperanza de 7 no tiende a 2i?(X). Entonces, T 
no es un estimador consist enlc en media cuadratica del doble de la media de la distribution poblacional. 

A partir de esta information (par de condiciones), no se puede decir nada sobre la consistencia en media de 
orden 1 y la consistencia en probabilidad; estos tipos de consistencia deben ser estudiados por un camino 
diferente. 

Error cuadratico medio : Como b{T) = E(T)-2E[X) = {S-2-3) 2 = 1 , 

, \ 24 

mse(t)=\+—. 



Podemos ver que MSE(T) -> 1 cuando n •¥ oo. 



Ejercicio 2ep-p 

Una muestra aleatoria simple de tamano n es extraida de una poblacion normal. La media /x puede estimarse 
con X. Probar que este estimador es eficiente. 

Es necesario probar que se verifica la definition de eficacia: 
Definition 

(a) La esperanza de X es [i, esto es, X es insesgado 

(b) X tiene minima varianza . lo que sucede -debido a un resultado teorico- cuando Var(X) alcanza la cota 
minima teorica de Cramer-Rao 



1 



n-E 



81og[/(X;6)] 



ae 



o, bajo condiciones de regularidad 1 



■1 



n-E 



d 2 \og[f{X;Q) 



ee 2 



donde /(x;0j es la funcion de probabilidad de la ley poblacional (en este caso = u), y en 
f[X;d) la variable no aleatoria x se sustituye por la variable aleatoria X (en otro caso, no es 
posible hablar de esperanza...). 

'. Es necesario que log [/ (x ; 0j] sea dos veces diferenciable con respecto a 0. En lo concerniente a las 
condiciones de regularidad, la Wikipedia refiere (http://en.wikipedia.org/wiki/Fisher_infonnation) a la ec. (2.5.16). de 

Lehmann, E. L. and G. Casella (1998). Theory of Point Estimation. Springer. 2nd ed. ISBN 0-387-98502-6. 

(a) La esperanza de la media muestral siempre es -para cualquier poblacion- la media poblacional. Sin 
embargo, podemos hacer los calculos de nuevo: 



E(X)=E 



i \ 1 / \ 1 



E[x\ = -n e[x)=e[x) = \i 
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(b) La varianza de la media muestral siempre es -para cualquier poblacion- la varianza poblacional dividida 

por n. Sin embargo, podemos hacer de nuevo los Calculos: .Independence de X, (muestra aleatoria simple) 



Var X)=Var 



1 x - '" 1 x~>" /\ \~>" 



\"l 



,, Var[x\ = \nVar[x) = 9- 



Por otro lado, calculamos la cota minima teorica de Cramer-Rao paso a paso: 
(1) Funcion 



f{X ;i i) = 



1 



(2) Logaritmo de la funcion: 



log[/(JT;n)]=log(- 



1 



aV 2 Jt 



_(x-mJ 

2 a 2 



av 2tc' 



log( e ~ 2 - ) = _ log ( a V2jt)-^-^ 



2 a 



(3) Derivada parcial del logaritmo de la funcion: 



A.(iog[/(jr ;l i)])=o--i T 2(jr-^)(-i)=^ 

^M- 2a a 

(4) Esperanza del cuadrado de la derivada parcial del logaritmo de la funcion: 



dlog[f(X;y)] 



(5) Cota minima teorica de Cramer-Rao: 



X — \i 



G 



I J 



= l- E \[X-^\ = ^Var{x)=\o 2 =\ 



G 



G 



G 



G 



G 



n-E 



eiog[/(JT;ji)] 



. \ 



d\i 



I J 



n-- 



1 n 



G 



La varianza del estimador alcanza (es igual a) la cota; entonces, el estimador tiene varianza minima y (b) quda 
probada. El cumplimiento de (a) y (b) implica que X es un estimador eficiente de ji. 

Nota : Supongamos que se puede aplicar la segunda expresion de la cota de Cramer-Rao (valida bajo ciertas condiciones de regularidad); entonces, 
el paso (3) seria 



s2 'io g [/(jr;nff--^'^ 



d\x 



d[i\ a 2 



I 



1 



G' 



el paso (4) seria 



y, finalmente, el paso (5) seria 




a 



■1 =- 



a 



1 



a 



-1 



n-- 



a 

■1 n 



a 

De este modo, habriamos obtenido el mismo resultado con calculos mas faciles, aunque el cumplimiento de las condiciones de regularidad debe 
verificarse antes... 



Ejercicio 3ep-p 

Para estudiar la media de una poblacion, es decir, jx = E(X), se considera una muestra aleatoria simple de 
tamano n. No confiamos en los datos primero y ultimo, por lo que estamos interesados en el estadistico 
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T(X)=T(X l ,...,X„ 



1 *—!»-! 



En-1 



1 / n X 7 +X,+ -+X n , 



Calcular la esperanza y la varianza del estadistico. Calcular tambien el limite cuando n tiende a infinito. 



Deben aplicarse las propiedades basicas de la media y la esperanza: 



E T(X)\ = E 



-J-(jr 2+ jr 3 +...+jr ji _ 1 ) 

n — I 



-^—[E{X 2 ) + -+E{X n _ 1 ))=-^-{n-2) i i= l i 
n—Z s ' n — 2 



Var T(X) =Var 



y n—2 



,X 2 +X 3 +-+X H _ t ) 



=f^^ v - w =f^ ( "- 2 ^=^ 



Cuando n crece mucho, esto es, cuando la muestra tiene cada vez mas informacion, los limites son 



\im n ^ x E[T {X))=\im n ^ a0 [i = [i 



Mm n ^Var[T{x)) = l\m n , 



2 

o _ 



n-2 







Esto muestra que T(X) tiene algunas propiedades deseables: insesgadez y varianza evanescente, par que es 
equivalente a la evanescencia del error cuadratico medio, que implica la consistencia (en probabilidad). 

Nota : De hecho, el estimador del enunciado is la media muestral usual cuando la muestra tiene n-2 datos, en vez de n. Cuando alguno de los dos 
datos quitados no es confiable, tiene sentido utilizar este estimador; en otro caso, no explota la informacion disponible de forma optima. Por otro 
lado, la media muestral puede verse afectada por valures muy grandes o muy pequenos (atipicos). Para hacer robusta a la media muestral, a veces 
se considera el estimador estudiado despues de ordenar los datos (de menor a mayor o viceversa); si X(i) es el /-esimo dato de la muestra 
reordenada: 

Este nuevo estimador robusto de la media poblacional se llama media muestral truncada, y cualquier proporcion de datos puede dejarse fuera (en 
vez de dos). 



Ejercicio 4ep-p 

Suponga que la altura de cada estudiante sigue una distribution normal con varianza 55 centimetros. Si se 
considera una muestra aleatoria simple de 25 estudiantes, calcular la probabilidad de que la cuasivarianza 
muestral sea mayor a 64, 625. 



La variable principal es la altura, la distribucion poblacional es la normal, el tamano muestral es 25 (menor a 
treinta), y se nos pregunta por la probabilidad de un evento expresado en terminos de un estadistico: 
P{S 2 > 64,625 ) . Como no conocemos la distribucion en el muestreo de S 2 , no podemos calcular esta 
probabilidad directamente. En su lugar, nada mas leer «cuasivarianza muestral» deberiamos pensar en el 
resultado teorico 



n-\)S z 



G 



2 
%n-p 



Para aplicarlo, el suceso debe reescribirse completando algunos terminos. Ademas, cuando la tabla de la 
distribucion ji-cuadrado da la probabilidades de las colas inferiores P(X<x), es necesario considerar el suceso 
complementario: 



P{S 2 > 64,625 )=P 



''IS-US 2 (25-1)64,625^ 



\ 



55 



55 



= l-P[X < 28,2)=l-0,75 = 0,25 
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Metodos 

Ejercicio lep-m 

Una poblacion es representada por una variable aleatoria que sigue una distribution de Poisson. Dada una 
muestra aleatoria simple de tamano n, aplicar el metodo de maxima verosimilitud para encontrar un 
estimador del pardmetro 6. 

(1) Funcion de probabilidad: Para una variable aleatoria de Poisson (0 > 0), 

/(x/e)=-2V 9 , xe{0,l,2...} 

x ! 

(2) Funcion de verosimilitud: 

£(*^.».;e)=nv/(*..-«)=n:-^«-=^«-- i ^«-- i ^«-=- ! ^-«- 



.v.: x x i x 2 ! xj i i %i! 



IX 



(3) Logaritmo de la funcion de verosimilitud: 

log[Z(x,x, > x 1I ;e)]=log[e Z '->log[ e - ,,fl ]-log[n" l ^-']=(Z" x,)log[e]-n0-log[n" *,-']• 



L, =[ I J \t—l i=X II OL J DLJ.Aj._j 



(4) Maximo del logaritmo de la funcion de verosimilitud: La distribucion poblacional tiene solo un parametro, 
por lo que es necesario maximizar una funcion de una variable. Para encontrar los «candidatos» (valores 
extremos locales): 

o=^ 1 og[^(^i^2,...^„.' e )]=(Z, =1 x /)e _ " "* e o = -Z, =1 x < =x - 

Para verificar que el candidato es un maximo (local): 

^og[L(x u x 2 ^,x n; e)] = (X =l ^<0 

dado que xg{0, 1,2...} — > X-i X ' — ®- Entonces, la segunda derivada is siempre negativa: tambien para 
6 . Sin embargo, si sustituimos el candidato en la derivada (x = solo para una «muestra muy extrafia»): 






\ — 1 _ — 1 —n n 



(5) Estimador por el metodo de maxima verosimilitud: 

Se obtiene despues de sustituir las letras minusculas x- Y (numeros que representan LA muestra que tenemos) 
por letras mayusculas X- x (variables aleatorias que representan CUALQUIER posible muestra que podamos 
tener): 

*• 1 x— l" — 
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Ejercicio 2ep-m 

Una variable aleatoria poblacional tiene la funcion de densidad (8 > 0) 

2(e-x) 

/(x;6): 



r 



o<x<e 



o 



Otherwise 



Dada una muestra aleatoria simple de tamano n, aplicar el metodo de los momentos para encontrar un 
estimador de 6. 

(1) Momentos poblacionales centrados y momentos muestrales: 

La distribucion poblacional tiene solo un parametro, por lo que solo se igualaran los primeros momentos. 

a 1 (Q)=E(X)=j _ xf(x;Q)dx=j x — — - 2 — -dx=— J xBdx — J x 2 dx 



e- 



e- 



X pB X [fl 

^ Lo - Lo 



■> x «) = -Z"-, 



e 0!-l! =6 2-=-e 



2 3 



6 3 



(2) Sistema de ecuaciones: 
a 1 (Q)=a l (x l , x 2 , ... , x n 






9 o=!i:, 



: 3 x 



(3) Estimador por el metodo de los momentos: 

Se obtiene despues de sustituir las letras minusculas Jtj (numeros que representan LA muestra que tenemos) 

por letras mayusculas X- x (variables aleatorias que representan CUALQUIER posible muestra que podamos 

tener): 



9 



MM' 



En _ 

i=l X i= 3X. 



Ejercicio 3ep-m 

Dada una poblacion, se estudia una variable aleatoria confuncion de densidad (distribucion exponencial) 

Be~ 6x x>0 



f(x;Q)= 







x<0 



Para una muestra aleatoria simple de tamano n, aplicar tanto el metodo de maxima verosimilitud como el 
metodo de los momentos para encontrar un estimador del parametro 6. 

Metodo de maxima verosimilitud 

(1) Funcion de probabilidad: La funcion de densidad esta dada en el enunciado. 
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(2) Funcion de verosimilitud: 



L(x l x,,x n ;Q) = U"f(x i ;Q)=UlMe- &x ]=Q"e- er - x ' 



(3) Logaritmo de la funcion de verosimilitud: 



eZ" 



iog[ J L(x lj x 2 ^,x„ ; e)]=iog[e"]+iog[^ 2 -' x ']=niog[e]-eX i . =1 x i . 

(4) Maximo del logaritmo de la funcion de verosimilitud: 

La distribucion poblacional tiene solo un parametro, por lo que es necesario maximizar una funcion de una 
variable. Para encontrar los valores extremos locales (x = solo para una «muestra muy extrana»), la 
condicion necesaria es: 



0: 



|Uog[Z,(x lt x 2 ,...,x„;8)]=«77-Z-=i x < "*■ 9 o 



1 



ae 



£>. iz. 



X 



Para verificar que el candidate es un maximo (local), la condicion suficiente es: 

^log[Z(x 1; X 2i ...,x n ;e)]=n^< 

ae e 

Por tanto, la segunda derivada es siempre negativa: tambien para 6 . 



(5) Estimador por el metodo de maxima verosimilitud: 

Se obtiene despues de sustituir las letras minusculas Xj (numeros que representan LA muestra que tenemos) 

por letras mayusculas X- x (variables aleatorias que representan CUALQUIER posible muestra que podamos 

tener): 



Affi- 






X 



Metodo de los momentos 

(1) Momentos poblacionales centrados y momentos muestrales: 

La distribucion poblacional tiene solo un parametro, por lo que se igualaran solo los primeros momentos. 

a 1 (B)=E(X)= J _^ x f(x ;B)dx= J xQe x dx=xQ^^[ + ° o e x — J 8-^e x dx 

:r+co 1 -6xr+co_ -8xr0 , 1 -BxrO _/ n A \, / 1 ^ \ 1 



= — xe 



-8x r+ oo 



-e 



e 



e 



e 



donde esta integral definida ha sido resuelta por la rbgla de integration por partes, dado que en el 
producto las funciones x6 y e %x «no son del mismp tipo» (una es un polinomio y otra una 
exponencial): 



J u(x)-v '(x)dx=u(x)-v(x) — J u '(x)-v(x)dx 



con 



La funcion e x crece mas 
rapidamente x k , para cualquier k 



u=xQ ■ 

i -dx 

v —e 



u'=e 

v = J e x dx — ^^e 



-Ox 
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a l [x 1 ,x 2> ... , x n j— X-=i x > 



(2) Sistema de ecuaciones: 

a l {B) = a l {x l ,x 2 ,...,x n ) 



J__J_V" 



e = 









(3) Estimador por el metodo de los momentos: 



'MM' 






X 



Nota : En este caso, ambos metodos proporcionan el mismo estimador. 



Ejercicio 4ep-m 

Una variable aletoria poblacional sigue una distribution normal. Para encontrar un estimador de los 
pardmetros 6 = (jx,d) apartir de una muestra aleatoria simple de tamano n, aplicar: 



(a) el metodo de maxima verosimilitud 
Metodo de maxima verosimilitud 

(1) Funcion de probabilidad: 

La funcion de densidad es bien conocida: 

f{x;\i,o)= 

(2) Funcion de verosimilitud: 

L (x l x 2 ^,x n ;\x,o) = Yl i=l f{x i ;[i,o)=Y\. = 



(b) el metodo de los momentos 



{x-\if 

2 or 



av 2 Tt 



1 



2a 2 



av 2ft 



/ \ 



av 2ft 



2o 



Z := , ( x --^') 



(3) Logaritmo de la funcion de verosimilitud: 



log[Z(x, x 2 ,x,;|i,o)]=-nlog[aV2jt]- — jS-, ( x / — M-f 

(4) Maximo del logaritmo de la funcion de verosimilitud: 

La distribucion poblacional tiene dos parametros, por lo que is necesario maximizar una funcion de dos 
variables. Para encontrar los valores extremos locales, las condiciones necesarias son: 



I 



Q-log[L(x l x x ,x a ;ii,o)]=0 

j^\og[L{x l x 2 ,x n ;\x ,o)] = 



^tEL,[2(**-|*)(-1)]=0 



2a 
a\2ft £ 



-2a 



= 



\ o i 
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— Z 1 - 1 (^-M-)=° 
n 1 



1 v"* 



Z* =1 (*-n)=o 

1 X -1 " / \2 

-n+ — 2^ f _Ax-[i) = 



H i=1 Xi=n[i 

Z n I \2 2 

1=l [x-[i) =no 



*i = \ 



2 1 V" 



(x-\x) 



\x = x 

2 lv* / -\2 2 



H = x 



Para verificar que el candidato es un maximo (local), las condiciones suficientes sobre las derivadas parciales 
de segundo orden son: 



A = -^- 2 \og[L{x^,x n ;\i,o)] = -^- —%_ x {x-\i) = — £" (-1) = -- \ 
da °r- O O ' O 



B =^Q^ l °dL{x K .,, x n ;\i ,0)] = ^^ — E ;= , {x-\i) 



o 

n i 



: — r-Z / _ 1 ( JC -i*)= — aX^U-l*)' 
a ,_1 a ,_1 



C=—^\og[L{x u ,x n ;\K,o)}=-~— -§+— Z.-.U'-M-) 2 =i T ^.Z^U^) 

3a oa [ a J a a !_1 

Antes de calcular D = B 2 -AC, el punto (|x , a)=(x, sj se sustituye en A, B y C: 



_2 

n 3 



4 Z" =1 U-^) 2; 



D\ 



1 \ 



\ s *l 



2n 

2 



2n^ 



< 



\ "*/ 



c 



2n 



;*.sj 2 



dado que ^ (x.-x)=0 y ^. = l {x-x) = — ^ j . = i (x j -x) =ns x . Entonces, \og[L{x l x x ,x n ;\i,o)] 
tiene un maximo en (\i,o)=(x, s x ) porque es un valor extremos local y, en ese punto, D < y A < 0. 

(5) Estimador de maxima verosimilitud: 

Se obtiene despues de sustituir las letras minusculas Xj (numeros que representan LA muestra que tenemos) 
por letras mayusculas X- x (variables aleatorias que representan CUALQUIER posible muestra que podamos 
tener): 




Metodo de los momentos 

(1) Momentos poblacionales centrados y momentos muestrales: 

La poblacion tiene dos parametros, por lo que se igualaran los dos primeros momentos. 

a l {[i,o)=E{X)=[i a 2 {n,o) = E{X 2 )=Var{x)+ E{xf=o 2 + n 2 

a l {x l ,x 2 ,... , x n )= — 2_, i=i x i a 2 [x l , x 2 , ..., x n ) = — 2_, j=l x t 
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(2) Sistema de ecuaciones: 



a l [[i,o)=a 1 [x l ,x 2 ,...,x n ) 

a 2 {\i,o) = a 2 {x 1 ,x 2 ,...,x n ) 



1 -v" 

2 , 2 1 V" 2 

a + ^ =zL,- ] x i 



2 

a = 



1 -V" 2 



_2 2 

— X =5,. 



(3) Estimador por el metodo de los momentos: 






'MM 



°MM S X 



Nota : En este caso, ambos metodos proporcionan el mismo estimador. 



Ejercicio 5ep-m 

Imagina que la variable poblacional en la que estamos interesados sigue una distribution binomial, esto es, 
tiene una funcion de masa dadapor 

f(x;k,p)=[ k )p x (l-p) k - x 
\xj 

Aplica el metodo de maxima verosimilitud para encontrar un estimador del pardmetro p. 

Pista : En los cdlculos: (i) Supon que k es conocido, por lo que el pardmetro de interes es = p; (ii) En la funcion de verosimilitud, agrupa los 
factores combinatorios en un productoy utiliza la letra A para representarlo; notese que este producto no depende del pardmetro p. 



(1) Funcion de verosimilitud: 

L {x h x 2 ^,x n ;k ,p)=Y[ i=l f{x,;k, p)=Y[ i= 



lk\ 


p x i\-pf Xt = 


n: =1 





P -' [\-p) 



(2) Logaritmo de la funcion de verosimilitud: 

log[L{x h x 2i ...,x„;k,p)]=log{A)+log{p)^ d n i=i x i +\og{l-p){nk-^ d n j=l x,). 

(3) Maximo del logaritmo de la funcion de verosimilitud: Para encontrar los «candidatos» (valores extremos): 
0=-^Mog \L (x, x 1 ,x„;k,p =0+ — > x— ink— > x,) — > — > x.= nk— > x. 



1 



P 

nk 



p ~ l= z.,*, 



1 _i i V" - 1 



k n 



Para verificar que el candidato es un maximo (local): 



c/ 



dp 



-log[L{x 1 x 2 ^x n ;k,p)]=- — Y, i=l x-- - 2 {nk~Y, i=l x,) < 

v 1 — p) 



dado que xe{0, 1,2,..., k) — * «& — ^ x,>0 . Entonces, la segunda derivada es siempre negativa. 
(4) Estimador maximo-verosimil: 
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Q ML— k X 



Ejercicio 6ep-m 

La distribution uniforme £/[0,9] tiene 



if jce[0,6] 



f(x;Q) 

otherwise 
como funcion de densidad. Aplicar el metodo de los momentos para obtener un estimador de 9. 

(1) Momentos poblacionales centrados y momentos muestrales: 
a l (d) = E(x)=fZxf(x;Q)dx = f xyx = ^[ e =^=^. 



e 2 L0 ~e 2 ~2 



(2) Sistema de ecuaciones: 

a l {Q) = a l {x i ,x 2 ,...,x n 

(3) Estimador: 



6_J_Y" 
2 n Lui '- 



X; 



e o = -Z" =1 ^ = 2 ^ 



* 2 v - '" — 



Intervalos de confianza 

Ejercicio lie 

Aplicar el metodo de la cantidad pivotal para obtener los siguientes intervalos de confianza: 

(a) Una poblacion normal: para pi cuando a es conocida 

(b) Una poblacion normal: para pi cuando a es desconocida 

(c) Una poblacion normal: para a cuando pi es conocida 

(d) Una poblacion normal: para a cuando pi es desconocida 

(e) Dos poblaciones normales iindependientes): para pi x -pi y cuando a x y a y son conocidas 

(f) Dos poblaciones normales (independientes): para pi x -pi } , cuando a x y a y son desconocidas e iguales 

(g) Dos poblaciones normales (independientes): para a x /a y cuando pi x y pi y son desconocidas 
(h) Una poblacion cualquiera: para pi 

(i) Dos poblaciones (independientes) cualesquiera: para pi x - pi y 

(j) Una poblacion de Bernouilli: para p 

(k) Dos poblaciones de Bernouilli (independientes): para p x -p y 

X — Ll 
(a) El pivote es T{X;\x)=— ^ ~ #(0,l), por lo que 

v n 
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l-a = J P(a 1 _ a/2 < T{X;ix)< a al2 ) = P 



X-V. ^ 

Z r ,n< n < + Z a /2 



\ 



v n 



= p{- z °<X- l i< + Zal2 JL) 



i n 



V « 



=/>(-X-z a/2 -^< -n< -X+ Za/2 ^L) = P(X + z +a/2 -fL> ^> X-z al2 f= 
in in in in 

= P(X-z a/2 ^< l x<X + z al2 ^) 
in in 



X — LI 

(b) El pivote es T(X;\i) = — t n _ l , por lo que 

in 



l-a = J P(l-a a/2 < T{X;\i)<a ol2 ) = P 



all 



X-\L 

_s_ 

i n 



< + t 



u.12 



=p(-t al 2j=<x-v< + t a ,2T=: 

in in 



= p(-X-t a S< -v< -x+ t a S)=P(X + t + *> n> X-t*) 



i n 



i n 



i n 



i n 



--P{X-t al2 —<\i<X+t al2 ^- 



i n 



i n 



(c) El pivote es T(X;o)= - = 2j- =1 \ — ^ — 



a 



X„, por lo que 



\-a = P{a l _ al2 <T(X;o)<a al2 ) = P 



Xi--«< 



Z" (*,-n) 



Xl-a/2 1 

2 



Xa/2 



-a/2 



a 



_< Xa/2 



/ 






■<i=i 



=P 



EL,(*-n) 2 , E".i(*-n) 2 



X 



a/ 2 



-< a < 



X 



l-a/2 



(d) El pivote es T(X;o) = — ^ 1 X«-i> por lo que 



2 2 

a a 



l-a = J P(a 1 _ a/2 < T(X;o)< a al2 ) = P 



ns 



Xl-a/2 < T" 5 - Xa/2 ~P 



a 



Xl-a/2 1 Xa/2 

2 2 2 

«5 a ns , 



-P 



ns 2 ns 

-> a > 



<■ KJ *■ V 

l-a/2 Aa/2 / 

(e) El pivote es T{X ,Y ;\i x \i Y ) = 



ns 2 ns 
-< a < 



KJ ~> V 

a/2 A 



l-a/2 



.^-y)-(M-AT-M-r) Ar / ni ^ , 
1 N (0,1 J, por lo que 



l-a=P(a 1 _ a/2 <7 , (A r ) F;^^ y )<a a/2 ) = P 



a/2 



^- 7 )-(^-^7, 



< + Z 



2 2 



a/2 



'a/2 



2 2 2 2 

-^+-^<(X-7)-(Li x -ji y )< + z a/2 <M+ ! 



/ 
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=p 



-(X-Y)-z 



a/2 I 



-+ -?-< -{\i x -[i 7 )< -{X-Y)+ z al: 






= P 



X-Y)+z 



a/2 J — + — > {Vx-Vy)> {X- Y)-Z al2 \ ~^ + 

! n x n Y I n x 



= P 



X-?)-z 



a/2 



+ — < {Vx-Vy)< {X- Y ) + Z alli — + 



l X ,l Y 



(f) El pivote es T(X , Y ;\x, x ,\i Y ) = — , t„ .,„ _,, donde se involucra la varianza muestral 



s 2 M-+J- 



« y+ «y — 2 ' 



ponderada S — - 

n v +n — 2 



n Y s x + n Y s Y (n y —l)S y+(n Y —l)S Y 






%+« J -2 



l-a=P(a 1 _ a/2 <7 , (A r ) F;^,jx r )<a a/2 )=P 



a/2 



por lo que 

(x-?)-(^ x -^ r ; 



i 



i i 

— + — 



a/ 



a/2 



= P 



\ 



= ...= P 



-t J <? 2 

'a/2l °p 



' 1 1* 

+ — 






<{X-Y)-{\x x -\x Y )< + t a/ JS 



' 1 1* 

— + — 



\ 



^ _ ^) _ ^a/2l ^p 



1 1^ 

+ — 



<{[i x -li Y )<{X-Y)+t a JS l 



1 1 1* 

— + — 



■ 



\ 



\ 



II 



f_x 

2 C 2 2 

(g) El pivote es T{X, F;a x ,a y )=-f =-f-f ~ P^-^-p 

2 

a y 



por lo que 



\-a = P{a l _ al2 <T{X;a)<a al2 ) = P 



V 2 ^ 2 

/. /2<^<//2 
J l-a/2 2 2 "' a/2 

a y 5 



'Jf ^Y 



= P 



J l-a/2 2 2 J a/2 ,-,2 



, 1 S* al 1 S 2 



J aJ2 S Y O y J l-a/2 5" 



V" — M 

(h) El pivote es 7 , ( J Y/|x)= , — -> iV(0,l), por lo que cuando n > 30 se puede aplicar el intervalo 

) n 
obtenido en (a) a cualquier poblacion. Ademas, si c 2 es desconocida y«> 100 cualquiera de s 2 6 S 2 puede 
utilizarse en su lugar. 

i \ (X— y)— (h x — \i y ) , s 

(l) El pivote es T[X , Y ;\i x ,\i Y )= , > #(0,1), por lo que cuando n x > 30 y n Y > 30 se 

Oy 2 y 

i — + — 

puede aplicar el intervalo obtenido en (e) a dos poblaciones (independientes) cualesquiera. Ademas, si c x 2 y 
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Gy 2 son desconocidas y n x > 100 y n Y > 100, sus estimadores muestrales pueden utilizarse en su lugar. 



(j) El pivote es T(X ; p 



,_ P-P 



p\\-p) 



-» 2V(0,l), porlo que 



l-a=P(a 1 _ a/2 <r(X; j p)<a a/2 )~P 



' Z al2 < \—TT. TT < + Z a/2 



^(l-» 



-■■■-P 



P~ Z al. 



>(l->) < 



/>< P+ Za/2^ ~ 



(k)Elpivotees r(X,r ; ^,^ F )= ^ M , , -»#(0,l), porloque 

/W~/>x) . Py\ 1 -Py) 



l-a = P{a l _ al2 <T{X,Y;p x ,p y )<a al2 )~P 



— Z /-,< 

all 



\Px-Py)-\Px-Py) 



r<+ Z 



a/2 



d ,,a . x ftjrU-pJ . PjM-Pr) ^, n / A . u ftxU-ftx) , Pr(l-.Pr, 

! n x n Y I n x n Y 



Poblaciones normales 

Ejercicio lic-e 

Para estimar la altura media de los drboles de un bosque, se considera una muestra aleatoria simple con 20 
elementos, proporcionando 

x=14,70u and s = 6,34u, 

donde u denota una unidad de longitud y s 2 es la cuasivarianza muestral. Si se supone que la variable 
poblacional altura es normal, encuentra un intervalo de confianza del 95 por ciento. ^Cudl es el margen de 
error? 

A partir de la informacion del enunciado, sabemos que la variable se distribuye normalmente y tiene varianza 
desconocida. El tamafio muestral es n = 20 (menor a 30, por lo que ningun resultado asintotico podria ser 
utilizado). Para aplicar el metodo de la cantidad pivotal, necesitamos un pivote con distribucion conocida, 
facil de manipular y con \i involucrado en su expresion. Consultando una tabla de estadisticos (p.ej. en [2]), 



T[X,n) = 



_X-\i 



n 



-«-i 



donde X=\X X , X 2 , .... Xj es una muestra aleatoria simple, S 2 es la cuasivarianza muestral y 4 denota la 
distribucion t de Student con k grados de libertad (en otras expresiones t p es el cuantil de probabilidad p), el 
intervalo se construye como sigue 
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l-a=P[a l _ al2 < T{X;ix)< a al2 )=P 



-tal2< 



X-[i 



v n 



<+ t 



«/2 



= P{-tal2^=<X-\l<+t al2l = / 

V n in 



I 



in 



= P(-X-t al2 — < -[K< -X+ t al2 — )=P(X+ t al2 — > [i> x-t al2 -=, 

i n 



i n 



S_ 

in 



= P{X-t al2 —< \i< x+ t ol2l = 
in in 



1 = 



X ~ t al2^=' X+ t al2~l= 

V n in 



Jl-a 



X + t 



s 



a/2 



V n 



Nota : Las cantidades ?„/2 y S tambien dependen del tamaiio muestral n. 



Para utilizar esta formula general con los datos especificos que tenemos, se necesitan los cuantiles de la 
distribucion con k = n-\ = 20-1 = 19 grados de libertad 



95% 



0,95 = 1-a ->• a = 0,05 



En la tabla de la distribucion t, debemos buscar el cuantil dado para p = l-a+a/2 = l-a/2 = 0,975 para una 
tabla de probabilidades de colas inferiores, o p = all = 0,025 para una tabla de probabilidades de cola 
superior; si se utiliza una tabla de dos colas, debe considerarse el cuantil dado para p = 1-a = 0,950. 
Cualquiera que sea la tabla utilizada, el cuantil es 2,093. Finalmente, 



l Q x + t 005/2 



S 14,70 u + 2,093 6,34 -^= 14,70 u +2,97 u 



V20 



V20 



Aplicando la definicion del margen de error a este intervalo, 



ME=t al2 -^==2,093 6,34^== 2,97 u 

i n i 20 



Ejercicio 2ic-e 

El numero de unidades demandadas de un producto se modeliza, para dos areas diferentes e independientes A 
y B, por las distribuciones Nip-A,^) y NQis.o 2 ), respectivamente. Para estudiar la diferencia entre las medias, 
se consideran las siguientes muestras aleatorias simples 



Area A 


4 


7 


7 


4 


8 


Area B 


7 


6 


7 


7 


8 



Encontrar un intervalo de confianza 99 por ciento. iCual es el margen de error? 



Eleccion del pivote adecuado : Hay dos poblaciones normales independientes, estamos interesados en ju a -ju b y 
las varianzas son desconocidas pero iguales. Entonces, a partir de una tabla de estadisticos (p.ej. en [2]), se 
selecciona el pivote 

T(v v \ { X - Y )-(Vx-Vy) , 

T[X,Y;\i x ,\i T ) = — 



i 



■ i i> 

— + — 
n x n Y 



' n x +n r -2> 



, , . „ . , , , C 2 n x s 2 x +n Y s 2 Y (n x -\)S 2 x +{n Y -\)S 2 Y 

de la talba, con varianza muestral ponder ada o =- 



n x +n y~ 2 



n x + n — 2 
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Metodo de la cantidad pivotal : Vease Ejercicio lie. 

Calculos : 

_ lv-5 4+7+7+4+8 _ 1 ^s 7+6+7+7+8 

x =^L^ x i= < = 6 y y=TL i ,- x ^ = = 7 



5 ^, = i . 



hi^i->i 



5 J J 5 

^ 2 _ (4-6) 2 +---+(8-6) 2 _ 



= 1 ' 



3,5 y S 2 =-^^ 5 iml {y-7f=0 t S 



, c2 5-1 3.5+ 5-1 0.5 . 
porloque S p = 5+ 5 - 2 ' 

Dado que l-a = 0,99, t n + n _ 2 a = t 001 = ^ 0005 = 3,355. 

» r 2 5+ 5 — 2,-" — ' ' 

2 



Si la tabla proporciona 

probabilidades de colas inferiores, 

es necesario buscar t , „„„. 



Intervalo de confianza: 



CI = 



(6 — 7) — 3,355W 2 



-+ — 

5 5; 



6-7)+ 3,355* 2 



\ 5+5 /. 



= -1+3,001 



Margen de error : 



£-^ + „ v - 2 ,f tl 5 P 



1 1 

— + — 
n x n Y 



= 3,355 2 



(l 


l) 


— + 




I 5 


5 J 



= 3,001 



Ejercicio 3ic-e 

La nota de una prueba de aptitud sigue una distribution normal con desviacion tipica 28,2. Una muestra 
aleatoria simple de nueve alumnos proporciona los resultados siguientes: 

Y 9 x, = 1.098 Y 9 x 2 = 138.148 

a) Hallar un intervalo de confianza al 90% para la media poblacional ju. 

b) Razonar sin hacer calculos si la longitud de un intervalo al 95% sera menor, mayor o igual que la del 
obtenido en el apartado anterior. 

c) iCudl deberia ser el tamano de muestra minimo necesario para obtener un intervalo del 90% de nivel 
de confianza con longitud (entre extremos) igual a 10? 



Identificar la variable 

X = Nota (de un alumno) 

Informacion muestral 



X~N(+t, c 2 = 28,2 2 ) 



Muestra teorica (aleatoria): X\,..., Xg m.a.s. (se van a tomar las notas de nueve alumnos) 

Muestra numerica: Xi,...,x 9 — > ^. x, = 1.098 ^ x 2 = 138.148 (se han tornado las notas) 

Podemos observar que no se conocen los valores Xi de la muestra. Sin embargo, se conoce informacion 
construida a partir de estos valores. Debe ser suficiente para hacer los calculos, que deben involucrar a las 
sumas anteriores. 

(a) Intervalo de confianza 

Para elegir la formula adecuada con que calcular el intervalo de confianza, tenemos en cuenta que: 
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• El tamafio muestral, n = 9, es pequeno, por lo que no se podrian utilizar las formulas asintoticas 

• Se sabe que la variable sigue una distribucion normal 

• Finalmente, como nos informan del valor de la desviacion tipica poblacional, no es necesario estimarla 

Apartir de una tabla de estadisticos (p.ej. En [2]), se selecciona el estadistico apropiado y, despues de aplicar 
el metodo de la cantidad pivotal (vease Ejercicio lie), concluimos que debemos usar la expresion 



\~2 \~£ 



l U 



= l-a = 0,90 



donde z al2 es el valor de la distribucion normal estandar que verifica f ) (2>z H/2 )=a/2, es decir, el valor 
tal que deja un area igual a a/2 a la derecha (cola superior). Vamos a calcular las cantidades que aparecen 
en la formula: 

•* x = -Y 9 x, = - 1.098= 122 
9^U=i ' g 

■^ Un nivel de confianza del 90% implica que a = (100-90)/100 = 0,1. El cuantil z a/2 =z 005 se busca en 
la tabla. Como la tabla nos informa de las probabilidades de la forma P{Z<z p ), buscamos el valor 



Z p~ Z l-al2~ Z l-0,05 — Z 0,95 — 

■^ Por el enunciado, a = 28,2 
■^ Por ultimo, n = 9 



1,645 Entonces z a/2 = 1,645. 



El intervalo es 



CI 



0,1 



70 9 to 9 

122-1,65-=??=, 122+1,65 ' 



V9 



V9 



(b) Longitud del intervalo 

Para responder a la pregunta se puede razonar que, fijos todos los parametros excepto la longitud, si se quiere 
mayor certeza es necesario ampliar el intervalo, es decir, aumentar su longitud. La manera formal de justificar 
esto consiste en usar la formula del intervalo, 



L = 



x+z Ht 



2 2 

Hi" n \ n' 



Ahora, si a y n permanecen fijos, para estudiar como varia L con a basta ver como varia el cuantil. Para el 
intervalo del 95%: 



z „/2 aumenta 



• a = (100-95)/100 = 0,05 -> adisminuye 

• Ahora la cantidad z c</2 debe dejar menos area (probabilidad) a la derecha 

Por tanto, de la expresion anterior se deduce que L aumenta. 

(c) Tamafio muestral 

Ahora se vuelve al intervalo del apartado primero, del 90%, y se pregunta por el valor de n para un a y una L 
dadas. De la expresion de la longitud es necesario despejar n 

„ - I 9R7^ 2 

n= 2z„ 



L = 2z -2- 

-^ ZZ a/2 j — 

V n 



Vn = 2z a/2 



a 



J a/2 



2-1,645 



28,2 



10 



: 860, 78 



n = 861. 



Si se tomase un tamafio mayor que 861, se obtendria un intervalo de precision mayor; sin embargo, en la 
practica esto tambien implicaria un mayor gasto economico. 
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Ejercicio 4ic-e 

Para prever la inflation en el ano, se ha recogido una muestra aleatoria simple 

1,5 2,1 1,9 2,3 2,5 3,2 3,0 
Si se supone que la variable inflation sigue una distribution normal: 

(a) Utilizando estos datos, construye un intervalo de confianza al 99% para la media de la inflation. 

(b) Construye un intervalo de confianza al 90% para la desviacion tipica. 

(c) Los expertos opinan que el intervalo de confianza calculado para la media es demasiado amplio, y 
desean una longitud total igual a 1,2 puntos. Hallar el nivel de confianza para este nuevo intervalo. 

Identificar la variable 

X = Prevision de la inflacion (de un pais) X~ ? 

Informacion muestral 

Muestra teorica: X\,...,Xn m.a.s. 

Muestra numerica: x\,...,xi -» 1,5 2,1 1,9 2,3 2,5 3,2 3,0 
En este ejercicio si conocemos los valores Xi de la muestra. 

(a) Intervalo de confianza para la media 

Para elegir la formula adecuada del intervalo, tenemos en cuenta que: 

• El tamaflo muestral, n = 7, es pequeno, por lo que no debemos pensar en ninguna formula asintotica 

• La desviacion tipica poblacional es desconocida, por lo que debe ser estimada por la cuasivarianza 
muestral 

Apartir de una tabla de estadisticos (p.ej. En [2]), se selecciona el estadistico apropiado y, despues de aplicar 
el metodo de la cantidad pivotal (vease Ejercicio lie), concluimos que debemos usar la expresion 



V „ . is 2 ' 



:l-a = 0,99 



x-t al2 j—<\i<x+t a/2 ^ — 

donde t a/2 es el cuantil tal que P(T> t a/2 ) = a/2 . Vamos a calcular las cantidades en la formula: 

■*• x = -Y ? x, = 2,35 

^ El nivel de confianza es 99%, por lo que a = (100-99)/100 = 0,01. El cuantil £ a / 2 = to,oi/2 = f o,oo5 se 
encuentra en la tabla de la distribucion t 7 -i de Student. Dado que t p =t 1 _ al2 =t 1 _ 0fi0S =t 0t99S = — 3,71, 
entonces t a/2 =3,71 

^ Utilizando la muestra, S =- — - 2_, ._ \^~ x) =0,6 =0,36 

^ Por ultimo, n = l 

El intervalo es 



^O.Ol - 



2,35-3,71^,2,35+3,71^ 



(b) Intervalo de confianza para la desviacion tipica 

Apartir de una tabla de estadisticos (p.ej. En [2]), se selecciona el estadistico apropiado y, despues de aplicar 
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el metodo de la cantidad pivotal (vease Ejercicio lie) y tomando la raiz cuadrada, concluimos que debemos 
usar la expresion 



<n-l)s: (n-l)S: 



X, 



x £ 



:l-a = 0,90 



2 2 

donde x Po y Xp, son valores de la distribucion ji-cuadrado, con parametro n-\ = 7-1 = 6, tales que 



X Po talque P(X<x P J = oc/2 

Las cantidades que aparecen en la formula son: 

■^ Tamafio muestral n = l 
•* S 2 =0,36 



Xp b talque P{X>y, 2 p ) = a./2 



■* Comoa = 0,l, Xo,o 5 =1 > 64 and Xo,95= 12 > 6 
El intervalo es 



ci 0i1 = 


j 6-0,36 j 6-0,36 
"i 12,6 ' ] 1,64 



(c) Nivel de confianza 
La longitud del intervalo es 



L = 



X+t 



\ 



all 



u 



x-t 



I \ 



al2 i n 



= 2t 



a/2 



donde L esta dada y debe encontrarse a. Sin embargo, previamente es necesario encontrar t al2 . 

iVn 1-V7 



l a/2" 



= 2,2. 



2S 2-0,6 

Apartir de la tabla, a/2 = 0,10 por lo que a = 0,20 y el nivel de confianza en tanto por ciento es: 

100 - 0,20 • 100 = 100 - 20 = 80%. 



Cualesquier poblaciones 

Ejercicio lic-a 

La duration media de prestamos en la biblioteca de una universidad en el curso pasado fue de veinte dias. Se 
toma una muestra aleatoria simple de cien libros este ano, y se obtienen unos valores de dieciocho y ocho 
dias para la media y varianza muestrales, respectivamente. Construir un intervalo de confianza del 99% para 
la duration media de prestamos en el curso pasado. 



Identificamos la variable 

X = Duracion (de un prestamo) 

Informacion muestral 

Muestra teorica: Xi,...,Zioo m.a.s. 



X~l 
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Muestra numerica: jei,...jcioo 



x=18, s 2 =8 



Los valores x ; de la muestra son desconocidos. A cambio, se conoce la evaluacion de algunos estadisticos. 
Esta debe ser suficiente para hacer los calculos, y las formulas deben escribirse en terminos de X y S 2 . 

Intervalo de confianza 

Para elegir la formula adecuada con que calcular el intervalo de confianza, tenemos en cuenta que: 

• El tamafio muestral es grande (>30), n = 100, por lo que se puede utilizar alguna formula asintotica 

• La varianza poblacional es desconocida, pero se estima por la varianza muestral 

A partir de una tabla de estadisticos (p.ej. En [2]), se selecciona el estadistico apropiado y, aplicando el 
metodo de la cantidad pivotal (vease Ejercicio lie) y sustituyendo a por S, concluimos que debemos usar la 
expresion 



\ 



Is 2 - is 2 

X-z„„\\ — < \x< X+ z al2 



Zal2 U 



i n 



= l-a = 0,99 



donde z al2 es el cuantil tal que P(Z> z al2 )= a/2 . Calculamos las cantidades: 

■^ Media muestral x = 18 

•+ Para la confianza del 99%, a = 0.01y z a/2 = 2,575. 

•^ Para calcular S 2 se utiliza la expresion (n— l)S =2^._ (x,- — x] 



2 2 

= ns . 



S 2 =- 



n-1 
^ Finalmente, n = 100 

El intervalo es 



s =^^8 = 8,1 (notese que el factor nl(n-X) tiende a 1 cuando n crece). 



99 



CI 



0,01" 



18-2,575-^=, 18+ 2,575 - 8 ' 1 



V100 



100 



Tamano muestral minimo 



Ejercicio lic-t 

Para estimar la media de una distribution normal con desviacion tipica 5, icuan grande debe ser la muestra 
para construir un intervalo del 95 por ciento de confianza con un margen de error igual a 1,2? 

Es necesario relacionar el tamafio muestral con el margen de error y el nivel de significancia. La anchura del 
intervalo es el doble del margen de error, y depende de n y a. Entonces, dado que para una poblacion normal 
con varianza conocida el intervalo se obtiene como en (a) de Ejercicio lie, 



CI = 



X-z, 



o 



,X+z r 



o 



■all l~ ' Vi r ^a/2 j~ 

V n V n 

porque 1 -a = 0,95 -> a= 1-0,95 = 0,05 



t^ — z „i~, j — 



a/2 /- 

V , 



n—\ z 



a 



a/2 



1,96 



1,2 



= 66,7 



n = 67 



-a/2 — ^0,025 



z =1 96 

z 0.025 1 ! 7U ' 



Veanse tambien: 

Ejercicio 3ic-e 
Ejercicio 4ic-e 
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Contrastes de hipotesis 

Ejercicio lch 



Para contrastar si una moneda esjusta o no, ha sido lanzada 100.000 veces, y 50.347 de ellas han sido caras. 
iDeberia rechazarse, como hipotesis nula, lajusticia de la moneda cuando a = 0,1? 

(a) Aplicar un contraste parametrico de significancia. 

(b) Aplicar el contraste no parametrico de bondad de ajuste deji-cuadrado. 

(c) Aplicar el contraste no parametrico de posicion de los signos. 



(a) Contraste parametrico de significancia 

Hipotesis y nivel de significancia : Dado que debe aplicarse un contraste parametrico, la moneda es 
modelizada con una variable aleatoria de Bernouilli, y las hipotesis son 

1 1 

H o- p=2 y H i : P^2 

Notese que la pregunta se basa en el valor del parametro p, mientras que se supone la distribucion de 
Bernouilli para ambas hipotesis; en algunos contrastes no parametricos, esta distribucion no se supone incluso. 
Por otro lado, el nivel a = 0,1 esta dado. 

Estadistico y region critica : A partir de la tabla de estadisticos (p.ej. en [2]), dado que la variable poblacional 
es de Bernouilli y el marco asintotico puede aplicarse (porque n es grande) 

e, 9c, e, 
Parametro p I — — I — | Q 



T(X;p)= , P- p 4 #(0,1) 

1 b(l-b) Estimadorp , III ■ |R R = p-0,5 \>c} 

y\^ fl . 0,5-c 0.5 0.5+c 4-1 



°- 5 +1 

0,5-c 0,5 0.5 +c 

Estadistico T fi, R - R c III] 

queinvolucra | — | | | — | |R R c = \\T\>a \ 

apy p -i -a o+o -i 

Como la distribucion normal es simetrica, un cuantil determina los dos valores criticos. Para calcular este 
cuantil, se aplica la definicion de error de tipo I: 

a = P {Error tipol) = P{RechazarH \ H cierta)=P(T e (X)eR c \QeQ )=P(\T p (X)\> a\ p=]-) 
= \-P{\T p {x)\<a\p=)-)™\-P{\Z\<a) -> P(|Z|<a)«l-a=l-0,l =0,9 -> a « 1,645 

Tabla de una o dos colas 

Regla de decision : Si aplicamos la metodologia basada en la region critica, 



50.347 1 




= 2,19> 1,645 -> T{x;-)gR c -> Se rechaza H 



100.000 
Si aplicamos la metodologia basada en el nivel critico o p-valor, 
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pV = P(X tan rechazadora como x\ H cierta) — P [\T (x)\>\T ( x)\ \ P = ^r) 

«P(|Z|>2,19)=2P(Z<-2,19)=2-0,0143 = 0,0248 -> j pF<0,l = a -+ Se rechaza H 

Tabla de una cola, dado que 2, 1 9 no esta 
en la tabla de dos colas que tenemos 

(b) Contraste no parametrico de bondad de ajuste ji-cuadrado 



Hipotesis y nivel de significancia : El nivel es a = 0,1. Para un contraste no parametrico de bondad de ajuste, la 
hipotesis nula supone que la muestra fue generada por una distribucion de Bernouilli con p = 1/2, mientras 
que la hipotesis alternativa supone que fue generada por una distribucion diferente (de Bernouilli o no). 



H n : X~ Bern 



I 2 / 



Hr. X ~ F # Bern 



Estadistico y region critica : Apartir de la tabla de estadisticos (p.ej. en [2]), 



nx)=r 



* N-e,- 



i=i 



<?, 



J 2 

~* Xk-s-1 



Parametro 9 



con 



K = 2 clases y celdas &., 

No ha tenido que estimarse ningun parametro, Estadistico T I | 

por lo que s = 



e 

IR 



R={T>a) 



Para calcular el cuantil a, se aplica la definicion de error de tipo I: 

a = P {Error tipol) = P{ Reject H \ H true) = P{T{x)&R c \ T**yfi)**P{y&> a)=\-P{x\<a) 



P(Xi<a)«l-a = l-0,l=0,9 



a~2,71 



Regla de decision : Dado que e { — n p^nP Q {i u class)— 100. 000— =50.000 



Tabla esperada (bajo H ) 


Clases 


Cara 


Cruz 


e , 


50000 


50000 



Tabla empfrica (muestra) 



Clases 



Cara 



50347 



Cruz 



49653 



T x)GR 



Se rechaza Ho 



Si aplicamos la metodologia basada en la region critica, 

, ,y2 (»,.-e,.) 2 = (50.347-50.000 f | (49.653 -50.000) 2 = 
[X> ^' =1 e t 50.000 " 50.000 

Si aplicamos la metodologia basada en el nivel critico o p-valor, 

pV = P(X tan rechazadora como x\ H true) — P (T (x)>T {x)\ r^Xi) i ^^ , (Xi^4,82) 

= l-^(xf<4,82)<l-P(xi<3,84)=l-0,95 = 0,05 -> pV<0,\ = a -> Se rechaza H 

4,82 no esta en la tabla que tenemos, mientras que 3,84 esta 

Nota : En algunas situaciones, acotar el nivel critico es suficiente para ver si es menor o mayor que a (para encontrar la acotacion, se utiliza el valor 
adecuado mas cercano incluido en la tabla: el menor o el mayor). Algunas veces esto no es suficiente y hay que calcular el valor exacto de la 
probabilidad teoricamente o utilizando algiin programa. 



(c) Contraste no parametrico de posicion de los signos 
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Hipotesis y nivel de significancia : El nivel es a = 0,1. Para un contraste no parametrico, si car a y cruz se 
escriben equivalentemente como +1 y -1, respectivamente, las hipotesis son 

H : Me{x) = y H x : Me{x)^0 
Estadistico y region critica : Apartir de la tabla de estadisticos (p.ej. en [2]), 



T{X)=Numero\ X 4 -Me{x)> 0: 



= Numero f X > 1 ~ Bin ( 



Estadistico 7 I 

o 



I 



■ (<U,...,ff 



Me(T)=-=E(T) 

R={\T-nl2\>a] 



Para calcular el cuantil a, se aplica la definicion de error de tipo I. Sin embargo, conocemos la distribucion de 
T, pero R c se ha escrito facilmente en terminos de T— nil, cuya distribucion esta involucrada en un resultado 
asintotico bien conocido (ademas, las probabilidades de la binomial no estan tabuladas para n = 100.000) 



a = P( Error tipo l) = P{ Rechazar H \ H cierta ) = P 



T x ei? 



T~Bin(n,—)\ 



Teorema del limite 
central para la Bin(«,l/2) 



= P\\T(X)-nl2\>a 



T~Bin\n , 



1 



-P 



T X)-n/2 



2 y 2' 



a 



2 K 2' 



T ~ Bin ( n , 



1 



*P |2|> 



2a 
V n 



\Z\< 



2a 

in 



l-a=l-0,l = 0,9 



2a 

v n 



a, 645 



i £A* J 100-000 ^nno7 
a p« 1 ,645 ^260,097 



Regla de decision : Si aplicamos la metodologia basada en la region critica, es necesario evaluar la cantidad en 
terminos de la cual hemos escrito las regions 

|r(jc)-100.000/2|=|50.347-50.000|=347>a 



T(x)&R 
Si se aplica la metodologia basada en el nivel critico o p-valor, 



Se rechaza H 



pV = P(X tan rechazadora como x\ H cierta) = P (\T (x)— nl 2\>\T \x)— nl2\\ T(x)~Bin(n,—)) 



= P 



T(x)-n/2 



i n 2 {l ~T 



f 



T(x)-nl2 



i n 2 {l -T 



T(X)~Bin(n, 



Z> 



50347-50000 



Jl00000^(l-^ 

\ 2 v 2 



= J P(|Z|>2,19)=2P(Z<-2,19)=2-0,0143 = 0,0248 -+ pV<0,\ = a -> Se rechaza H 

Nota : (1) En este ejercicio, los tres contrastes proporcionan la misma decision, pero en otros puede no ser asi. (2) Con dos clases, el contraste ji- 
cuadrado no distingue dos distribuciones tales que las dos probabilidades son (!/•>, Vi), esto es, en este caso el contraste proporciona una decision 
acerca de la simetria de la distribucion. (3) Notese que en este caso el contraste parametrico y el contraste de los signos son esencialmente el 
mismo y se obtiene el mismo nivel critico o p-valor. 
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Contrastes parametricos 



Ejercicio lch-p 

La vida media de un mdquina, en anos, sigue una distribution normal con varianza igual a 4. Una muestra 
aleatoria simple de tamano 100 proporciona una media muestral igual a 1,3 anos. Contrastar la hipotesis 
nula de que la media poblacional es igual a 1,5 anos, aplicando un contraste bilateral de 5 por ciento de 
nivel de significancia. 

Nivel de significancia y enunciado de las hipotesis : a = 0,05 y, para un contraste bilateral, 

H : \i= 1,5 y H^. \i ^ 1,5 

Estadistico adecuado y region critica : Hay una poblacion normal con varianza conocida, por lo que el 
estadistico incluido abajo es seleccionado. Para determinar la region critica, bajo H , son necesarias su forma 
y los valores criticos. Es muy util dibujar el espacio parametrico y el espacio donde toma valores del 
estadistico (si se desea, tambien el espacio donde toma valores el estimador del parametro): 



Parametro |j — I — Q 

1.5 



...w JiZH 



K 



r(*;n) = -j=f ~tf(0,l) Estimador)< * I I I |R i? f = (|!-l ; 5|>c] 



Q l.5-c !.5 1,5+f 

IT 

Estadistico T R, d Mxl 1 

que involucre x. r~T~\ R , IR -"r = i k r^l 



Los valores criticos -a y +a (simetricos en este caso, dado que tambien lo es la distribucion normal estandar) 
se encuentran aplicando la definicion de error de tipo I: 

a = P{Errortipol)= P {Rechazar H \ H cierta)= P{T e {x)eR c \ 6g© ) = P{\Z\> a) 
-> a = z a/2 =l,96 -> R C ={\T\> 1,96} . 

Regla de decision : Para tomar la decision final sobre las hipotesis, hay dos metodologias disponibles. Para 
aplicar la primera, se evalua el estadistico Ten la muestra especificax = (jci,...,Xioo): 

r(x;^=1.5)=^=^H= 13 _Zl 5 = ~°-;;" 10 =-i -> T{x;\i=l,5)£R e > No se rcchaza //„ 

'a 2 



x-1.5_1.3-1.5_ 


-0.2-10_ 


1 


1 4 2 1 4 2 
1 100 1 100 


4 


2 



1 

Siempre se calcula la region critica, por lo que aplicar esta metodologia es facil. La segunda metodologia 
requiere el calculo del nivel critico o p-valor (p-value), que es por definicion una probabilidad: 

pV = P(X tan rechazadora como x \ H cierta)— P(\T (x)\>\T (x)\ \ \x= 1,5) 

= J P(|Z|>|-0,5|)=1-P(|Z|<0,5)=1-0,3830=0,617 -^ pV = 0,6\7> 0,05=a -> No se rechaza H 

Esta ultima metodologia proporciona la misma decision final mas informacion adicional sobre el soporte que 
la muestra x ha dado a la hipotesis nula. Como p Vqs bastante mayor que a, el soporte is fuerte en este caso. 
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Ejercicio 2ch-p 

Dados 25 datos de una poblacion normal, la information muestral se resume en 



(a) iDeberia ser rechazada la hipotesis Ho: a 2 = 4 cuando Hi: a 2 > 4 y a = 0,05? 

(b) lYsiH-.J + AI 

(a) Hipotesis alternativa unilateral 

Nivel de significancia e hipotesis : a = 0.05. H : a 2 =4 y H x : a 2 > 4 

Estadistico adecuado y region critica : Hay una poblacion normal con media desconocida. Para determinar la 
region critica, bajo Ha, son necesarios su forma y valores criticos. Es muy util representar el espacio 
parametrico y el espacio donde toma valores el estadistico (si se desea, tambien el espacio donde toma valores 
el estimador del parametro): 



7-(X,-a)=^=^I^~x;- 



a 



a 



Parametro a 2 



Estimador s 2 



Estadistico T 
que involucra 
a a 2 y s 2 



e 



—i — h 

Me\s"l * 



— I 1- 

Afe(J) a 



IR R=\s~>c 



IR R c = \T>a 



El valor critico +a se calcula aplicando la definicion de error de tipo I: 

a = P (Error tipo I) = P {Reject H \ H true) = P{T B {X)&R C \ 6g© ) = P{xl 5 -i> a) = \-P{xl 5 -i<a) 
-»• J P(x24^«)=l-a=l-0,05 = 0,95 -^ a = 36,4 -»■ R c = [T> 36,4} 

Regla de decision : Para tomar la decision final sobre las hipotesis, hay disponibles dos metodologias. Para 
aplicar la primera, el estadistico T es evaluado para la muestra especifica x: 



25 



T x 



1_V 2_ l y 

,C Z-i X i ir Zj X i 



25 



25 



_ 25-5,53 _ 



34,56 



4 4 

2 1 X -1 " 2 1 X - '" 

Para calcular la varianza, la propiedad general s =—/ J . X t — —/_,._ X t ha sido utilizada. La segunda 



T{x)€R c 

\2 



No se rechaza H 



metodologia requiere el calculo del nivel critico o p-valor: 



/ 



pV — P\X tan rechazadora como x | H cierta)— P[T (X)>T [x))= .P(x24^34,56 ) 



1-^(X24<34,56) = 0,075 



^K = 0,075>0,05=a -^ No se rechaza // 



Con el codigo l-pchisq(34 . 56, 24) en el lenguaje de 
programacion R, dado que el valor 34,56 no esta en las tablas que tenemos. 

(b) Hipotesis alternativa bilateral 

Nivel de significancia e hipotesis : a = 0.05. H : a 2 =4 y H x \ a 2 ^4 

Estadistico adecuado y region critica : Ahora 
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Parametro o 2 I — — I — Q 



o 



2 I 1 \ r.2 



T(X;a)=^ = ^^-- X l_ l a— * ■" " [,.!„ ■ , R M^iM^l 



a 2 a 2 A„-l „ , lMe|/] c 2 

Estadistico T R r ; r ._ d —I T liifT ) 

que involucra I — H ' — |R « c -| J <fl, [U| i >fl 7 f 

Los valores criticos a\ y a 2 se calculan aplicando la definicion de error de tipo I: 

a = P{RechazarH \ H cierta) = P{T e {x)eR c \Qe@ ) = P{% 2A < a x )+ P{% 2A > a 2 ) 

Dado que hay infinitos pares de cuantiles tales que P{a x < x 2A < a 2 )=\—a, se considera por convenio el que 
determina colas de a/2. Entonces 



|=P( X 24<a 1 ) ■* a, = l2,4 
^ = P{%l>a 2 ) -> a 2 =39,4 



i? c = {r<l2,4}u{r>39,4: 



Regla de decision : Si se evalua el estadistico Ten la muestra particular x: 

T{x)= 34,56 -> T{x)£R c -> No se rechaza i7 
Para basar la decision en el nivel critico o p-valor, dos veces la probabilidad de la cola determinada por T(x): 
pV = P(X tan rechazadora como x \ H true) — 2- P(t(x)>T(x)) = 2- P(x 24 > 34,56) 

= 2[l-P(x24<34,56)]=2-0,075 = 0,l5 -> j pF=0,l5> 0,05 = a -> No se rechaza # 



Con el codigo l-pchisq(34 . 56, 24) en el lenguaje de 
programacion R, dado que el valor 34,56 no esta en las tablas que tenemos 

Nota : Dados Ho y a, se puede llegar a decisiones diferentes para los contrastes unilateral y bilateral; es por esto por lo que describir los detalles del 
entorno de trabajo tiene gran importancia en Estadistica. 



Ejercicio 3ch-p 

La homocedasticidad (igualdad de varianzas) de dos poblaciones biologicas debe ser estudiada. La 
distribution de la variable se supone que es normal e independiente en ambas poblaciones. Despues de 
recoger information mediante muestras de tamanos nx = 11, n Y = 10, respectivamente, se resume en 



i n v 



Para a = 0,1, contrastar: 

(a) H : a x = a Y y H; o x < o Y 

(b) H : Ox = o Y y Hi: a x > o Y 

(c) H : Cx= o Y y H: a x + a Y 

(a) Hipotesis alternativa unilateral a x < o Y 

Nivel de significancia e hipotesis : a = 0.1. H : o x —o 2 Y y H x : o 2 x <o 2 Y 

Estadistico adecuado y region critica : Hay dos poblaciones normales con medias desconocidas. Para 
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determinar la region critica, bajo H , se necesitan su forma y sus valores criticos. El estadistico de abajo se 
selecciona de la tabla de estadisticos (p.ej. en [2]): 



Si 4 e. 0t 



' x 

o 2 S 2 ° v ' 

T(X,Y) = ^ = ^- ~ F 



I 



Si Si "*~ 1 '"'- 1 tA ■- — l-l IR R c = {T<a) 



__y "r 

Oy 



SY ° 



Se encuentra el valor critico +a aplicando la definicion de error de tipo I: 

ot = P [Error tipo l) = P ( Rechazar H | H cierta) = P(T(X , Y)< a)=P(F n _ l>10 _ 1 < a)=P(F l0>9 < a) 

-»■ 0.1 = P(F 109 <a) = P(F 910 >-) -> -=2,35 -> a = 0,43 -> i? c = {T< 0,43}. 

A partir de la definicion de la distribution F de Snedecor, es facil ver que si X sigue una F nl n , 
entonces MX sigue una F... Utilizamos este truco para consultar la tabla que tenemos. 

Regla de decision : Para tomar la decision final sobre las hipotesis, hay disponibles dos metodologias. Para 
aplicar la primera, se evaliia el estadistico Ten las muestras especificas x y y: 

S 2 S 2 6 8 
T( x ,y)=^-= — = — -J5 =o,86 -> T{x)£R -> No se rechaza H 

S 2 Y n Y 2 10 ?1 

(Para calcular la cuasivarianza 5V 2 , la propiedad general (n — l)S =ns ha sido utilizada.) La segunda 
metodologia requiere el calculo del nivel critico o p-valor: 

p V = P ( X tan rechazadora como x | H cierta )= P ( T [X , Y )< T ( x , y )) = P ( F 10 9 < 0,86 ) = 0,4 1 
— > pV = 0,41> 0,1 = a — > No se rechaza i/ 

Con el codigo pf (0.86, 10, 9) en 
el lenguaje de programacion R. 

(b) Hipotesis alternativa unilateral a x > Oj 

Nivel de significancia e hipotesis : a = 0.1. H : o 2 x —o 2 Y y H x \ o 2 x > o 2 Y 

Estadistico adecuado y region critica : 

±* 4 ■— —i— 9 

o 2 S 2 

T I V v\ — x — £_ ~ p R 

V ' ' c 2 o2 ^ « v- 1 ,«,-l jJ . . *, ._. D -fTs/, 1 

Sy 5 y r=^f I I ' IR K~\ 1>a \ 

2 u 

Oy 

El valor critico +a se calcula aplicando la definicion de error de tipo I: 

a = P (Error tipo l) = P ( Rechazar H | H cierta) = P (T (X , Y)> a) = P(F n _ 1 10 _ 1 > a) = P(F i0 9 > a) 
-> a = 2,42 -> i? c ={r>2,42}. 

Regla de decision : Se evaliia el estadistico Ten las muestras especificaxyj: 

T(x,y)=0,86 -> T{x)£R c -> No se rechaza flb 

La segunda metodologia requiere el calculo del nivel critico o p-valor: 
pV = P{X tan rechazadora como x \ H cierta)= P{t{X ,Y)>T{x, y)) = P{F l09 >0,86)= 1-0,41 = 0,59 
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— > pV = 0,59> 0,1 = a — > No se rechaza H 
(c) Hipotesis alternativa bilateral a x ^ cry 

Nivel de significancia e hipotesis : a = 0.1. H : o 2 x —o 2 Y y H x : o 2 x ^o Y 
Estadistico apropiado y region critica : 

^l 4 i- — ^- -i- — — e 

u 

t( Y v)— — ~ F K 

{ ' ] S\ **- 1 ^ ,4. -^-^T-| -JL_ |R ^ir.juir^l 

2 

o Y 

Aplicando la definicion de error de tipo I y el criterio de dejar la mitad de la probabilidad en cada cola: 
a = P {Error tipol) = P{RechazarH \ H cierta) = P{T{X , Y)< a x )+ P{T{X, Y)> a 2 ) 



= p {F w ,9 <a i) "* «i = 0,33 



^ = p i F w,9 >a 2) •* a 2 =3,\4 



R ={T< 0,33 }ufr> 3,14 



'. JJ J 



2 

donde se ha utilizado la funcion de cuantiles del lenguaje de programacion R: 

> qf (c(0.05 , 0.95) , 10, 9) 
[1] 0.3310838 3.1372801 

Regla de decision : El estadistico Tqs evaluado en las muestras concretas xy y: 

T{x,y)=0,86 -> T{x)£R c -> No se rechaza H 

Para aplicar la metodologia basada en el nivel critico, calculamos qf ( . 5 , 10, 9 ) =1 . 007739, que es la 
mediana; como T{xy) esta en la cola izquierda: 

pV = P{X tan rechazadora como x \ H true) = 2P{T{X ,Y)<T{x, y))=2-0,4l = 0,S2 
— > pV = 0,S2> 0,1 = a — > No se rechaza H 

Nota : Por definicion, el nivel critico o p-valor toma un valor entre y 1 (es una probabilidad). Si no sabemos en que cola esta T(xj?) y 
consideramos la incorrecta, nos daremos cuenta porque el doble de la probabilidad de la cola seria mayor a 1. 



Contrastes no parametricos 

Ejercicio lch-np 

Tres productos financieros han sido comercializados y la presencia de interes ha sido registrada para algunas 
personas. Es posible imaginar diferentes situaciones en las que los siguientes datos podrian ser obtenidos. 





Producto 1 


Producto 2 


Producto 3 




Grupo 1 


10 


18 


9 


37 


Grupo 2 


20 


13 


15 


48 




30 


31 


24 


85 
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(a) Si 48 personas del grupo 2 fueron situados considerando la variable producto, contrasta si esta variable 
sigue la distribution determinada por la muestra del grupo 1 cuando a = 0.01. 

(b) Si se entrevista a 37 personas del primer grupo y 48 personas del segundo, contrasta la homogeneidad 
de la distribution de la variable producto en ambos grupos cuando a = 0,01. 

(c) La gente con interes en alguno de los productos fue clasificada despues de considerar las dos variables 
grupo y producto. Contrasta la independencia de las dos variables cuando a = 0,01. 



(a) Hipotesis y nivel de significancia : El nivel a = 0,01 esta dado. Para un contraste no parametrico de bondad 
de ajuste, la hipotesis nula supone que las probabilidades teoricas del segundo grupo siguen las probabilidades 
de la muestra del primer grupo, la referenda. Si P t representa la variable producto en la poblacion z'-esima, 



H : P 2 ~P { 



y H X :P 2 ~F*P X 



Estadistico y region critica : A partir de la tabla de estadisticos (p.ej. en [2]), 



T(x)=r 



<■' [N-e,Y i , 



1=1 



<?, 



* X K - 



Parametro 8 



e, 



K = 3 clases y 1 muestra . _ * i ' 

No ha debido ser estimada ninguna probabilidad, asi .5 = • 





e 

R 



R={T>a] 



Para calcular el cuantil a, se aplica la definicion de error de tipo I: 
a = P{Errortipol) = P{RechazarH \H cierta) = P{T{x)eR c \T^x 2 2 )^P{x 2 2>a)=\-P{x 2 2 <a) 



P{X 2 <a)^\-a = 1-0,01 =0,99 



a~9,21 



Regla de decision : 

La variable Pi sigue la distribucion con valores {1, 2, 3} y probabilidades {10/37, 18/37, 9/37}. 



Frecuencias esperadas 

Producto 1 Producto 1 Producto 3 



Grupo 2 



e l 


•h 


fl 3 


48 



Frecuencias empiricas 

Producto 1 Producto 2 Producto 3 



Grupo 2 



20 


13 


15 


48 



■>=«£ ->=« £ 



e, = 4S- 



Si aplicamos la metodologia basada en la region critica, 



T x 



20-48 



1_0 

37 



13-48 



18 

37 



15-48- 



37 



481? 

37 



4 8 I| 

37 



37 



:9,34 



T(x)sR 



Se rechaza H 



Si aplicamos la metodologia basada en el nivel critico o p-valor, 
pV = P(X tan rechazadora como x\ H Q cierta) — P [T (x)>T (x) \ T^Xi) 
< P(X2>9,21)=1-P(X2<9,21)=1-0,99=0,01 -> pV<0,01=a - 



iP{xl>9,34) 
Se rechaza H 



9,34 no esta en las tablas que tenemos, mintras que 9,21 si esta 



(b) Hipotesis y nivel de significancia : El nivel a = 0,01 esta dado. Para un contraste no parametrico de 
homogeneidad, la hipotesis nula supone que las probabilidades de cualquier columna son las mismas para los 
dos grupos, esto es, son independientes del grupo o estrato. Si G representa la variable grupo, 
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H : F[x\G)=F{x) y H x : F{x\G)*F{x) 



Estadistico y region critica : A partir de la tabla de estadisticos (p.ej. en [2]), 



T(X)=tXJ^ 



X(x-i)(jc-i) ParametroS I 



e, 



L=2 grupos y K = 3 clases K R c 

Dos de las tres probabilidades deben ser estimadas, asi s = 2 Estadistico T I j 





IR 



R={T>a} 



Para calcular el cuantil a, se aplica la definicion de error de tipo I: 
a = P{Errortipol) = P{RechazarH \H cierta) = P{T{x)eR c \T^x 2 2)^P{xl>a)=l-P{xl^a) 



P{X 2 <a)^\-a = 1-0,01 =0,99 



a~9,21 



Regla de decision : Se supone una distribucion subyacente, aunque no especifica, por lo que las probabilidades 
son estimadas directamente a partir de la informacion muestral. 



Frecuencias esperadas 

Producto 1 Producto 2 Producto 3 



Grupo 1 


3 n 


4 


e :s 


37 


Grupo 2 


8 :: 


3 n 


e i> 


48 




i 


, 


1 


85 






S„=17- 



= 4-8^ 



S:" 



= i$-. 



e.,= « 



Frecuencias empiricas 

Producto 1 Producto 2 Producto 3 



Grupo 1 


10 


18 


9 


37 


Grupo 2 


20 


13 


15 


48 




30 


31 

i 


24 
i 


85 



P-1= 



S3 



31 
^=85 



P--T 



:-■:" 



Si aplicamos la metodologia basada en la region critica, 



T x 



10-37 



i-i- 



30 

85 



15-48 



24 
85 



37 30 
85 



-+•••+ 



24 

48 — 

85 



=4,29 



T[x)£R 



No se rechaza H 



Si aplicamos la metodologia basada en el nivel critico o p-valor, 
pV = P{X tan rechazadora como x\ H cierta) — P (T (x)>T (x) \ r«X2)^-f > (x2^4,29) 

= l-i , (X2<4,29)>l-P(x?< 4,61) = 1-0,9=0,1 -> pV> 0,1> 0,01=a -> No se rechaza if 

4,29 no esta en la tabla que tenemos, mientras que 4,61 si esta 

(c) Hipotesis y nivel de significancia : El nivel a = 0,01 esta dado. Para un contraste no parametrico de 
independencia, la hipotesis nula supone que las probabilidades de cada celda es el producto de las 
probabilidades de su fila y columna, 

H : f(x,y) = f(x)f(y) y H x : f{x,y)*f{x)f{y) 
Estadistico y region critica : A partir de la tabla de estadisticos (p.ej. en [2]), 
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t(x)=Z l Y 



k {N,-e») j 2 



i=l^j=l 



e u 



~* X(z-i)(a:-i) Parametro 



con 



L= 2 y K= 3 clases K 

Una y dos probabilidades deben ser estimadas, asi s = 3 Estad istico 7" [ j 



e, 







IR R e =[T>a\ 



Para calcular el cuantil a, se aplica la definicion de error de tipo I: 
a = P{Errortipol) = P{RechazarH \H cierta) = P{T{x)&R c \T^x 2 2 )^P{xl>a)=\-P(xl<a) 



P{X 2 <a)^\-a = 1-0,01 =0,99 



a«9,21 



Regla de decision : Se supone una distribucion subyacente, aunque no especifica, por lo que las probabilidades 
son estimadas directamente a partir de la informacion muestral. 

Frecuencias esperadas Frecuencias empiricas 

Producto 1 Producto 2 Producto 3 Producto 1 Producto 1 Producto 3 

07 /?,„™ i 1 fl 1Q O 17 _. h. = — 

" S5 
_4S 
'~S5 



Grupo 1 


s n 


e \i 


£.. 


37 
48 


Grupo 1 
Grupo 2 


10 


18 


9 


37 


Grupo 2 


«» 


4 


s ~'~> 


20 


13 


15 


48 




, 


i 


i 


85 




30 

i 


31 


24 


85 



*,,=«- 



85 85 



85 85 


''' " S5 S5 


48 31 
85 85 


. _ g5 4814 
S:! " 85 85 



P-- 



30 



24 



Si aplicamos la metodologia basada en la region critica, 



T x 



10-37 



30 

85 



15-48 



24 
85, 



37 



30 



48 



24 



=4,29 



T[x)€R 



No se rechaza Ho 



85 85 

Si aplicamos la metodologia basada en el nivel critico o p-valor, 
pV = P{X tan rechazadora como x\ H cierta) — P (T (x)>T (x) \ r«X2) ! ^-f > (x2^4,29) 



= 1-P(X2<4,29)> 1-P(xi< 4,61) = 1-0,9=0,1 



pV> 0,1 > 0,01 =a — > No se rechaza H 



Nota : El contraste de homogeneidad puede ser visto como un caso particular del contraste de independencia donde una variable, digamos G, indica 
la pertenencia al grupo o estrato y, al mismo tiempo, el numero de elementos en cada muestra ha sido fijado, lo que puede verse como restricciones 
donde se condiciona la distribucion conjunta a ciertos valores para G; esto implica que las probabilidades «se estiman automaticamente». Notese 
que los resultados numericos y la decision son los mismos en ambos tipos de contraste. Por otro lado, el contraste de bondad de ajuste puede ser 
visto como un caso particular del contraste de homogeneidad con dos muestras donde una de ellas determina el modelo de referencia para la 
hipotesis nula (un vector de frecuencias determina un vector de probabilidades). 

Nota : En este ejercicio, la independencia y homogeneidad no han sido rechazadas, mientras que la hipotesis que supone que la variable producto 
sigue en la poblacion 2 la distribucion determinada por la muestra del grupo 1 . Por otro lado, la distribucion determinada por una muestra, 
involucrada en (a), es en general diferente de la distribucion subyacente comiin supuesta, involucrada en (b) y (c), que es estimada usando las 
muestras de ambos grupos . Entonces, esta distribucion subyacente «esta entre las dos muestras», lo que puede justificar las decisiones en (a), (b) y 
(c); de hecho, en este caso concreto el grupo 2 tiene mayor peso al determinar esa distribucion por tener mas elementos. 

Nota : En la practica, para las estimaciones C« puede aplicarse la misma regla mnemotecnica tanto en el contraste de homogeneidad como en el 
de independencia: para cada posicion, multiplicar por las frecuencias absolutas de la fila y la columna y dividir por el numero total de elementos n. 
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